Generalization is an important attribute of machine learning models, particularly for those that are to be deployed in a medical context, where unreliable predictions can have real world consequences. While the failure of models to generalize across datasets is typically attributed to a mismatch in the data distributions, performance gaps are often a consequence of biases in the 'ground-truth' label annotations. This is particularly important in the context of medical image segmentation of pathological structures (e.g. lesions), where the annotation process is much more subjective, and affected by a number underlying factors, including the annotation protocol, rater education/experience, and clinical aims, among others. In this paper, we show that modeling annotation biases, rather than ignoring them, poses a promising way of accounting for differences in annotation style across datasets. To this end, we propose a generalized conditioning framework to (1) learn and account for different annotation styles across multiple datasets using a single model, (2) identify similar annotation styles across different datasets in order to permit their effective aggregation, and (3) fine-tune a fully trained model to a new annotation style with just a few samples. Next, we present an image-conditioning approach to model annotation styles that correlate with specific image features, potentially enabling detection biases to be more easily identified.
translated by 谷歌翻译
Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.
translated by 谷歌翻译
参考分辨率旨在识别说话者所引用的实体,在现实世界中更为复杂:新的指称者可以由代理商参与和/或仅仅因为属于共享的物理设置而创建和/或显着。我们的重点是在多模式对话中解决对大屏幕显示上的可视化的引用;至关重要的是,参考分辨率直接参与创建新的可视化的过程。我们描述了通过语言和手势以及新实体建立在大屏幕上出现的可视化的用户引用的注释,这是由于执行用户请求创建新可视化而产生的。我们还描述了我们的参考分辨率管道,该管道依赖于信息状态体系结构来维护对话环境。我们报告有关检测和解决参考文献的结果,模型上下文信息的有效性以及创建可视化的请求不足。我们还尝试了常规的CRF和深度学习 /变压器模型(Bilstm-CRF和Bert-CRF),以在用户话语文本中标记参考。我们的结果表明,尽管CRF仍然表现出色,但转移学习显着提高了深度学习方法的性能,这表明传统方法可能会更好地概括为低资源数据。
translated by 谷歌翻译
我们提出了一个开放域的社交聊天机器人Chirpy Cardinal。为了既有信息又有信息,我们的机器人以一种真实的,情感上的方式与用户聊天。通过将受控的神经产生与脚手架,手写的对话整合在一起,我们让用户和机器人都轮流推动对话,从而产生引人入胜且流利的体验。Chirpy Cardinal部署在Alexa奖Socialbot Grand Challenge的第四次迭代中,每天处理数千次对话,在9个机器人中排名第二,平均用户评级为3.58/5。
translated by 谷歌翻译
预测,预测了大量的机器人和人为辅助任务。 NASA为了解这些天体的地质和构成的努力在很大程度上取决于机器人臂的使用。当人类与机器人探险家一起工作时,安全性和冗余方面至关重要。此外,机器人臂对于卫星维修和计划的轨道碎片缓解任务至关重要。这项工作的目的是创建一个基于自定义的计算机视觉(CV)的人工神经网络(ANN),该神经网络将能够快速识别从单个(RGB-D)的7度自由(DOF)机器人组的姿势图像 - 就像人类可以轻松识别手臂是否指向一定方向一样。 Sawyer机器人臂用于开发和培训这种智能算法。由于Sawyer的关节空间涵盖了7个维度,因此覆盖整个联合配置空间是一项无法克服的任务。在这项工作中,使用类似于Taguchi方法的正交阵列,以有效地跨越关节空间,以最少的训练图像数量。该生成的数据库用于训练自定义ANN,其准确度平均等于数据库生成使用的最小关节位移步骤的两倍。预先训练的ANN将有助于估计在太空站,航天器和流浪者作为辅助工具或应急计划上使用的机器人操纵器的姿势。
translated by 谷歌翻译
研究部门在组织中推动创新的重要作用。随着速度和量的信息增长,绘制见解,跟随趋势,保持新的研究以及制定策略的配制策略越来越越来越具有挑战性。在本文中,我们介绍了一个用例,即公司研究界如何利用语义网络技术来诱导从结构化和文本数据中诱导统一的知识图,通过整合与研究项目相关的社区使用的各种应用程序,学术论文,学术论文,数据集,成就和认可。为了使应用程序开发人员更容易访问知识图,我们确定了一组通用模式,用于利用诱导的知识并将其视为API。这些模式是从用户研究中诞生的,这些模式确定了最有价值的用例或用户疼痛点要缓解。我们概述了两个不同的方案:用于业务使用的建议和分析。我们将详细讨论这些方案,并针对实体建议提供经验评估。所使用的方法和从这项工作中学到的教训可以应用于面临类似挑战的其他组织。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
变压器已成为自然语言处理(NLP)字段中的De-Facto标准。他们也在计算机视觉和其他域中获得了势头。变形金刚可以使人工智能(AI)模型能够动态地关注其输入的某些部分,因此更有效地关注某些部分。灵感来自变形金刚的成功,我们采用了这种技术来预测在多个视野中的战略飞行偏离需求。这项工作是为了支持斜切式的移动应用程序,PAIR,将预测的偏离需求显示为通用航空(GA)飞行运营商,因此他们可以更好地了解繁忙时期离开延误潜力的意识。涉及Pacer以前设计的基于规则的预测方法的现场示范表明,离职需求的预测准确性仍然具有改进的空间。本研究致力于提高来自两个关键方面的预测精度:更好的数据源和鲁棒预测算法。我们利用了两个数据来源,航空系统性能指标(ASPM)和系统广播信息管理(游泳)作为我们的输入。然后,我们用时间融合变压器(TFT)接受了预测的预测模型,用于五个不同的机场。案例研究表明,TFT通过大幅度的传统预测方法可以更好地表现优于传统的预测方法,它们可以在各种机场和更好的解释性方面导致更好的预测。
translated by 谷歌翻译